Проект: Исследование рынка заведений общественного питания Москвы

Цель проекта: В нашем распоряжении есть данные о заведениях общественного питания Москвы. Необходимо оценить и подготовить презентацию для инвесторов о положение дел на рынке общественного питания и предсказать успешность новой кофейни.

Описание данных:

Файл moscow_places.csv:

Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений. Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число. Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.

Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений. Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число. Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.

Ход работы:

Изучение общей информации

Файл содержит информацию о 8406 объектах общественного питания. Видим, что по ряду столбцов есть пропуски, в некоторых необходимо заменить тип данных.

Предобработка данных

Заполнять пропуски не будем, так как мы не знаем наверняка, чем их заполнить, данные могут быть искажены. Удалить их так же нельзя, много данных будет потеряно.

Создадим столбец street с названиями улиц из столбца с адресом.

Создадим столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7):

Поменяем типы данных в столбце chain на булевый.

Теперь можно приступать к анализу.

Анализ данных

Какие категории заведений представлены в данных? Исследуем количество объектов общественного питания по категориям. Построим визуализации.

Выделяются категории ресторан и кафе: на них приходится более 24% заведений на каждую, в сумме более 50% всех заведений.

Исследуем количество посадочных мест в местах по категориям. Построим визуализации.

В среднем количество посадочных мест больше всего в барах, ресторанах и кофейнях. Видим сильные выбросы значений у этих трех типов.

Рассмотрим и изобразим соотношение сетевых и несетевых заведений в датасете. Каких заведений больше?

Видим, что чуть больше трети заведений, 38% от общего числа заведений, являются сетевыми, оставшиеся 62% - не сетевые.

Какие категории заведений чаще являются сетевыми? Исследуем данные и ответим на вопрос графиком.

Больше всего сетевых заведений среди булочных, более 60% объектов этого типа относятся к сетевым. Так же выделяются пиццерии и кофейни, более 50% относятся к сетевым.

Сгруппируем данные по названиям заведений и найдем топ-15 популярных сетей в Москве. Под популярностью понимается количество заведений этой сети в регионе. Построим подходящую для такой информации визуализацию. Есть ли какой-то признак, который их объединяет? К какой категории заведений они относятся?

Большая часть из топ-15 заведений относится к кофейням (более 40%). Меньше всего столовых, баров и заведений быстрого питания.

Какие административные районы Москвы присутствуют в датасете? Отобразим общее количество заведений и количество заведений каждой категории по районам.

В центре Москвы самое большое количество объектов, сильно выделяется количество ресторанов. Так же можно отметить большую долю кофеен, баров/пабов и кафе.

Визуализируем распределение средних рейтингов по категориям заведений. Сильно ли различаются усреднённые рейтинги в разных типах общепита?

Видим, что самый высокий средний рейтинг у баров, пабов, 4.39. Далее идут примерно на одном уровне 4.3 рейтинга: пиццерия, ресторан, кофейня и булочная. С самыми низким рейтингом 4.05 оказались заведения быстрого питания.

Построим фоновую картограмму (хороплет) со средним рейтингом заведений каждого района. Границы районов Москвы, которые встречаются в датасете, хранятся в файле admin_level_geomap.geojson. Отобразим все заведения датасета на карте с помощью кластеров средствами библиотеки folium.

Самое большое скопление объектов в центре Москвы.

Найдем топ-15 улиц по количеству заведений. Построим график распределения количества заведений и их категорий по этим улицам.

На проспекте мира больше всего объектов, преобладают рестораны, кафе и кофейни.

Найдем улицы, на которых находится только один объект общепита. Что можно сказать об этих заведениях?

Скопление подобных заведений в ЦАО, вероятно потому, что в центре Москвы много маленьких улиц.

Значения средних чеков заведений хранятся в столбце middle_avg_bill. Эти числа показывают примерную стоимость заказа в рублях, которая чаще всего выражена диапазоном. Посчитайте медиану этого столбца для каждого района. Используйте это значение в качестве ценового индикатора района. Постройте фоновую картограмму (хороплет) с полученными значениями для каждого района.

Самый высокий чек оказался в ЦАО, ЗАО. В ЗАО, как видно по карте, входит аэропорт Внуково, цены в аэропортах как правило сильно завышены, это могло повлиять на средний чек заведений в округе.

Выводы

Детализация исследования: открытие кофейни

Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения? Есть ли круглосуточные кофейни? Какие у кофеен рейтинги? Как они распределяются по районам? На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

В ЦАО расположилась самая больная часть кофеен с большим отрывом от остальных округов, 428 кофеен. С самым маленьким количеством оказались Юго-Западный, Юго-Восточный, Северо-Западный административные округа. При этом средняя стоимость чашки кофе выше всего в Юго-Западном округе, затем идет ЦАО. Средний рейтинг заведений по округам варьируется между 4.20 и 4.34.

Рекомендации

Ссылка на презентацию: https://disk.yandex.ru/i/-AoMEG-eknypjw